назад ко второму семестру

Сравнение фрагмента полного множественного выравнивания, полученного с помощью программы ClustalW, с соответствующим фрагментом "эталонного" выравнивания из SMART

База данных SMART содержит проверенные экспертами множественные выравнивания гомологичных белковых доменов. Выравнивания согласованы с данными о пространственной структуре (если она известна). Эти выравнивания часто используют как эталонные (benchmark alignment) при оценке качества работы новых программ выравнивания.

1. Получение эталонного выравнивания.
В базе данных SMART получила изображение доменной структуры белка CUER_ECOLI. Выбрала домен HTH_MERR и получила эталонное выравнивание доменов, гомологичных выбранному. Сохранила эталонное выравнивание в текстовом файле HTH_MERR.msf.

2. Для дальнейшего детального исследования выбрала и вырезала из эталонного выравнивания фрагмент толщиной 5 последовательностей и шириной 60 аминокислотных остатков. Фрагмент сохранен в файле benchmark.msf. Он же виден ниже:

3. По идентификаторам UniProt из benchmark.msf получила с помощью SRS полные последовательности в формате Fasta и сохранила их в файле full_seq.fasta.

4. Построение программой ClustalW множественного выравнивания последовательностей из full_seq.fasta.
Множественное выравнивание построено с помощью программы emma пакета EMBOSS. Затем я импортировала данное выравнивание в GeneDoc и сохранила в виде файла clustalw.msf. Можно посмотреть в виде clustalw.htm (Здесь выделены участки выравнивания из benchmark.msf, попавшие в ClustalW.msf)

5. Проводим сравнение двух фрагментов выравнивания. Красным цветом выделяем участки выравнивания из benchmark.msf, попавшие в ClustalW.msf.Затем бирюзовым - совпадающие колонки. Очевидно, невозможно провести сравнение по всем 5 фрагментам последовательностей, так как выравнивание ClustalW "расплылось", скорее всего из-за небольшой гомологичности выбранных белков (соответственно, и фрагментов последовательностей). В частности, белки из B. Subtilis и E. Coli отстоят далеко от других. Зато существует тройка последовательностей, совпадающая по всей длине фрагмента - это HSPR_STRCO, GLNR_BACCE и Y701_SYNY3. Фрагменты последовательностей BLTR_BACSU и YCGE_ECOLI "съехали" в процессе выравнивания и не имеют совпадающих участков ни друг с другом, ни с остальными последовательностями. В качестве меры сходства выравниваний можно принять число совпавших колонок, деленное на общее число колонок. (Эту операцию имеет смысл проводить только с HSPR_STRCO, GLNR_BACCE и Y701_SYNY3). Получается, что мера сходства равна 100%.


© Лозиер Екатерина